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摘 要 : 


目前 主流 的 人 工 智 能 ， 普 遍 采 用 “注意 力 机 制 + 深度 学 习 ”+“ 强 化 学 习 ” 
的 技术 道路 。 我 们 认为 “强化 学 习 ” 无 法 适用 到 那些 难以 大 量 “ 试 错 ” 的 领域 。 
所 以 ， 要 想 实现 能 适用 于 任何 领域 的 通用 人 工 智 能 ， 我 们 必须 转变 实现 道路 。 所 
以 ， 我 们 提出 了 一 套 不 同 于 “深度 学 习 + 强 化 学 习 ” 的 机 器 学 习 方 案 ， 它 通过 小 
样本 、 累 积 学 习 ， 同 样 实现 了 和 transformer 相似 的 注意 力 机 制 ， 也 同样 创建 了 
全 连接 知识 网 络 。 并 且 ， 它 不 需要 采用 试 错 学 习 的 方式 ,就 可 以 实现 和 环境 的 互 
动 决策 。 并 且 人 类 可 以 给 它 预 置 不 同 的 先天 需求 ， 来 实现 多 目标 平衡 ， 从 而 实现 
远 高 于 目前 人 工 智能 的 安全 性 。 在 本 文中 , 我 们 提出 了 一 套 从 0 到 1 的 新 机 器 学 
习 技 术 方案 。 
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1， 引 言 


目前 主流 的 人 工 智能 ， 普 遍 采 用 “注意 力 机 制 + 深度 学 习 ”+“ 强 化 学 习 ” 
的 技术 道路 。 其 中 “注意 力 机 制 + 深度 学 习 ” 主 要 用 于 建立 知识 网 络 ， 而 “ 强 
化 学 习 ” 主 要 用 于 提高 机 器 和 环境 的 连续 互动 决策 能 力 。 比 如 Google 公司 2022 
年 6 月 推出 的 “GaTo”, 单个 模型 可 以 完成 600 多 种 不 同 的 任务 "再 比如 0pen-AI 
推出 的 大 模型 PT-4， 在 知识 理解 和 推理 方面 ， 获 得 了 惊人 的 进步 *。 但 目前 人 
工 智能 大 模型 的 能 力 上 限 在 哪里 ? “注意 力 机 制 + 深度 学 习 ”+ “强化 学 习 ”能 
实现 真正 的 “通用 人 工 智能 ” 吗 ? 我 们 在 本 文中 进行 了 一 些 初步 探讨 。 


2， 目 前 大 模型 的 能 力 上 限 


首先 ， 我 们 注意 到 目前 “强化 学 习 ” 都 是 采用 外 部 反馈 来 告诉 机 器 在 不 同 决 
策 路 径 下 结果 的 “好 ”和 “ 坏 ”， 这 种 外 部 反馈 可 以 来 自 预 设 的 奖励 函数 ， 比 如 
alpha go 中 ， 反 馈 来 自 于 判别 输赢 的 奖励 函数 ;也 可 以 是 人 类 的 反馈 ， 比 如 目 
前 大 模型 中 普遍 采用 的 RLHF (Reinforcement Learning from Human Feedback) 
技术 @。 所 以 ， 目 前 “强化 学 习 ” 的 本 质 是 先 “ 尝 试 ”、 后 “反馈 ”的 方式 ， 让 
机 器 通过 不 同 的 决策 路 径 , 获得 不 同 的 “奖励 ”信息 。 然后 , 机 器 才 可 以 获得 “ 自 
里 状态 ”和 “不 同 策略 ”之 间 的 利 冻 关系 ， 从 而 获得 和 环境 的 互动 决策 能 力 。™ 

我 们 认为 ， 当 机 器 面 对 需 要 和 环境 互动 决策 时 ， 目 前 “强化 学 习 ” 这 种 方式 ， 
更 加 像 一 种 “进化 ”学 习 的 方式 ， 它 的 本 质 是 “ 试 错 ”， 通 过 外 部 反馈 来 实行 淘 
汰 。 这 和 生物 的 进化 非常 相似 。 所 以 ， 这 样 的 学 习 方式 只 适用 于 虚拟 环境 中 ， 比 
如 游戏 、 元 宇宙 和 内 容 生 成 任务 中 。 对 于 必须 在 实际 环境 中 进行 互动 学 习 的 任务 ， 


比如 照顾 老人 ， 驾 驶 车 辆 ， 强 化 学 习 难 以 适用 。 

其 次 ，“ 深 度 学 习 ” 所 创造 的 知识 ， 人 类 难以 理解 。 这 会 导致 机 器 和 人 类 是 
两 套 知识 体系 ， 彼 此 无 法 理解 ! 比如 ， 人 类 难以 理解 大 模型 的 决策 过 程 。 同 样 ， 
大 模型 也 难以 真正 地 理解 人 类 语言 所 代表 的 知识 。 比 如 ， 目 前 还 没有 任何 人 工 智 
能 ， 可 以 读 一 遍 “ 面 包机 ”的 使 用 说 明 ， 就 能 在 不 同 的 面包 店 ， 操 作 面 包机 烤 面 
fsan 。 而 人 类 却 可 以 通过 阅读 “面包 机 ”的 使 用 说 明 ， 就 获得 他 人 已 经 积累 的 
关于 面包 机 的 使 用 知识 。 从 而 在 面 对 “ 操 作 面 包机 ”这 个 新 任务 时 ， 人 类 可 以 在 
这 些 已 有 决策 知识 指导 下 进行 决策 ， 和 环境 互动 ， 比 如 ， 人 类 在 打开 面包 机 顶 盖 
时 ,不 需要 先 去 尝试 各 种 方案 (比如 砸 开 面 包机 的 顶 盖 ，， 而 是 通过 语言 直接 获 
得 人 类 已 经 积累 的 经 验 。 

所 以 ,我们 认为 ， 真 正 的 机 器 学 习 ， 应 该 像 人 类 一 样 ， 面 对 一 个 新 任务 ， 可 
以 根据 自己 过 去 的 经 验 ， 来 预测 不 同 决策 路 径 下 的 “好 坏 ”， 最 多 选 有 限 几 个 方 
RAZA, 就 可 以 获得 处 理 新 任务 的 决策 知识 。 更 进一步 , 我 们 认为 真正 的 学 习 ， 
也 应 该 和 孩子 学 习 方 式 类 似 , 通过 语言 来 直接 获得 人 类 已 经 积累 的 经 验 。 在 面 对 
新 任务 时 ， 一 次 尝试 都 不 需要 ， 直 接 一 次 成 功 ! 比如 在 实验 室 里 ， 老 师 教 孩子 们 
做 实验 时 ， 是 通过 语言 传授 ， 直 接 把 人 类 已 有 的 决策 经 验 传递 给 孩子 们 。 孩 子 们 
可 以 在 获得 老师 传递 过 来 的 知识 后 ， 在 不 同 的 环境 下 ， 通 过 一 步 步 决策 ， 和 环境 
互动 ， 就 可 以 直接 完成 实验 。 尽 管 孩子 们 可 能 是 第 一 次 做 这 些 实验 ! 

所 以 , 我 们 认为 ,因为 知识 结构 和 学 习 方 法 不 对 ， 导 致 目前 人 工 智能 大 模型 
无 法 解决 下 面 的 严重 缺陷 : 


2. 1， 不 能 自主 解决 问题 。 

比如 目前 人 工 智 能 ， 它 看 到 主人 摔 倒 时 ， 并 不 会 主动 过 来 帮忙 m。 

这 是 因为 机 器 没有 自己 的 需求 ， 就 不 可 能 产生 自己 的 目标 。 由 于 机 器 没有 自 
己 的 目标 ， 就 不 可 能 主动 创建 一 个 任务 。 所 以 ， 面 对 实际 的 社会 生活 中 层出不穷 
的 意外 情况 ， 机 器 只 能 通过 预 设 流程 来 处 理 。 它 的 预 设 流程 ， 可 以 来 自 外 部 人 类 
编写 的 prompt 流程 由。 也 可 以 是 机 器 按照 预 设 指令 ， 使 用 输入 信息 在 知识 库 中 
寻找 相似 流程 来 整体 模仿 。 

目前 一 些 人 也 在 试图 编写 递归 调用 函数 。 比 如 在 一 个 任务 下 ， 调 用 “寻找 过 
去 完成 相似 任务 的 流程 ”的 函数 ， 然 后 针对 获得 的 每 一 个 流程 ， 再 次 调用 “寻找 
过 去 完成 相似 任务 的 流程 的 函数 ,来 获得 更 多 的 流程 。 这 是 一 种 递归 调用 的 方 
式 。 目 前 具有 代表 性 的 项 目 是 AUTO GPT， 它 通过 存储 把 从 搜索 引擎 获得 的 知识 ， 
和 从 GPT-4 获得 的 知识 ， 聚 合 起 来 ， 然 后 作为 prompt, M GPT-4 寻找 解决 方案 。 
通过 这 个 过 程 的 递归 调用 , 就 可 以 完成 一 个 相对 宏观 的 任务 。 如 果 任 务 需 要 的 所 
有 流程 和 参数 都 已 经 存在 于 大 模型 的 函数 库 中 ， 大 模型 可 以 完成 任务 。 但 AUTO 
GPT 能 完成 的 任务 ， 并 不 会 超越 大 模型 能 完成 的 任务 的 边界 。 而 且 ， 在 现实 生活 
中 ， 层 出 不 穷 的 意外 情况 ， 很 可 能 会 导致 在 某 一 个 点 上 ， 并 没有 合适 的 流程 和 参 
数 匹配 目前 的 环境 ， 这 就 会 导致 递归 调用 失效 mnom。 

所 以 , 大 模型 不 会 自发 地 去 创建 新 流程 ! 大 模型 本 质 就 是 一 种 高 级 的 编程 语 
言 。 使 用 的 语法 就 是 自然 语言 。 如 果 我 们 理解 了 这 一 点 ,就 能 看 清楚 大 模型 的 边 
界 在 哪里 。 无论 我 们 添加 多 少 高 级 函数 到 大 模型 中 去 , 也 就 是 无 论 我 们 集成 多 少 
工具 、APP 到 大 模型 中 去 ， 大 模型 都 不 会 自发 的 去 创建 新 的 流程 。 它 所 有 的 流程 
都 是 模仿 过 去 的 流程 (递归 调用 ) ， 或 者 人 类 为 其 预 置 的 流程 〈 主 程序 调用 ) 。 
这 两 种 方式 ， 本 质 上 都 是 “使 用 预 置 的 流程 来 处 理 所 有 问题 ”。 无 论 这 个 流程 中 


有 多 少 if...else...， 考 虑 到 多 少 种 可 能 性 ， 它 都 是 预 置 的 ， 预 先 就 存在 的 。 它 不 是 
面 对 具 体 任务 ， 临 时 创造 出 来 的 ! 

所 以 ， 大 模型 的 本 质 就 是 给 人 类 提供 一 套 编程 平台 ， 使 用 的 编程 语言 就 是 人 
类 语言 。 而 之 前 的 编程 语言 是 C++, Jave, Python 等 计算 机 语言 。 同 时 ， 大 模型 
也 提供 了 一 套 函 数 ， 这 套 函 数 可 以 使 用 人 类 语言 来 调用 。 比 如 “创建 PPT” RA% 
就 是 人 类 语言 命令 + 该 函数 需要 的 各 种 参数 ”大 模型 在 命令 + 参数 的 模式 下 ， 
完成 任务 。 这 样 ， 未 来 人 人 都 可 以 是 程序 员 。 而 对 大 模型 更 加 了 解 的 人 ， 可 以 编 
写 更 好 的 程序 ， 这 些 人 就 被 叫做 “prompt engineer”， 他 们 是 未 来 的 程序 员 。 

目前 大 模型 还 在 不 断 的 丰富 自己 的 函数 。 比 如 未 来 ， 它 的 函数 输入 参数 还 可 
能 包含 图 像 、 视 频 、 动 作 ， 或 者 任何 传感器 输入 ， 函 数 的 输出 也 可 能 包含 图 像 、 
视频 、 动 作 ， 或 者 任何 其 他 多 模 态 序列 趾 。 所 以 未 来 ， 所 有 流程 都 可 以 采用 大 模 
型 的 编程 语言 (自然 语言 ) 来 编程 。 大 模型 就 是 一 个 机 器 语言 平台 ， 它 和 Python 
没有 本 质 区 别 。 

比如 ， 在 Python 程序 中 ， 人 类 把 思想 变 成 Python 程序 流程 ，python 平台 负 
责 把 函数 翻译 成 各 种 下 层 驱 动能 够 理解 的 机 器 程序 , 来 完成 任务 ， 从 而 实现 人 类 
预 设 的 ， 解 决 问题 的 流程 。 

所 以 大 模型 就 是 新 一 代 的 Python. Python Eb C++ 更 适合 人 类 接口 ， 所 以 它 更 
流行 。GPT-4 比 Python 更 适合 人 类 接口 ， 所 以 它 未 来 会 更 流行 。 但 C++ 依然 没有 
消失 ， 因 为 在 特定 领域 ， 它 有 它 的 优势 。 所 以 ， 未 来 各 种 专用 的 大 模型 ， 或 者 
Python， 也 不 会 消失 ,它们 还 有 少量 存在 的 空间 。 所 以 ， 未 来 所 有 的 软件 都 可 以 
用 大 模型 语言 来 重 写 ， 而 懂得 大 模型 编程 的 新 一 代 程 序 员 (Prompt engineer) 将 
会 成 为 新 一 代 的 “和 白领 ”m。 

所 以 ， 大 模型 的 核心 本 质 ， 就 是 更 加 友好 的 一 套 “ 编 程 语言 ”。 它 接口 是 自 
然 语 言 ， 函 数 丰 富 多 样 ， 而 且 是 多 模 态 的 ， 预 期 未 来 很 快 就 会 建立 起 自己 的 生态 
圈 。 但 它 的 本 质 ， 依 然 脱 离 不 了 编程 语言 ! 它 是 入 门 门槛 极 低 ， 功 能 极 大 扩张 的 
一 套 编程 语言 ， 这 是 它 的 本 质 。 所 以 ， 未 来 以 大 模型 为 基础 ， 可 以 完成 任何 可 以 
预测 流程 的 任务 。 那 些 复杂 的 任务 ,无非 就 是 多 编写 一 些 if...else... 分 文 。 但 现实 
生活 中 ， 存 在 大 量 无 法 预测 流程 的 任务 ! 比如 照顾 老人 、 开 车 做 饭 、 陪 伴 孩 子 、 
农业 生成 等 等 。 人 类 可 以 给 帮忙 考虑 到 各 种 可 能 性 , 但 在 和 真实 环境 互动 的 过 程 
中 ， 总 有 意外 情况 出 现 。 这 时 ， 机 器 怎么 处 理 这 些 意外 情况 ， 人 类 就 无 法 预测 。 
所 以 这 会 非常 危险 , 尤其 是 在 大 模型 的 函数 涉及 到 人 类 生活 的 方方面面 时 ， 可 能 
给 人 类 带 来 无 法 接受 的 损失 。 


2.2， 知 识 无 法 实时 更 新 。 

目前 人 工 智 能 ， 采 用 大 数据 训练 ， 知 识 无 法 实现 实时 更 新 。 而 知识 的 实时 更 
新 ， 对 于 和 环境 互动 的 机 器 而 言 ， 至 关 重 要 。 因 为 机 器 和 环境 的 互动 ， 就 是 机 器 
获得 新 知识 的 过 程 。 如 果 机 器 所 获得 的 知识 无 法 实时 更 新 ， 就 会 导致 机 器 无 法 实 
时 根据 环境 的 反馈 来 更 新 自己 的 决策 知识 。 所 以 , 这 样 的 机 器 , 面 对 同 样 的 环境 ， 
就 会 不 断 犯 同样 的 错误 @。 


2.3， 无 法 适用 于 需要 和 真实 环境 互动 的 领域 。 

在 需要 和 真实 环境 互动 的 领域 ， 比 如 自动 驾驶 、 做 家 务 、 护 理 病人 等 领域 ， 
机 器 需要 建立 自己 行为 和 外 界 环境 之 间 的 互动 决策 知识 。 而 这 些 领域 无 法 大 量 的 
试 错 ， 所 以 机 器 无 法 通过 强化 学 习 , 在 真实 的 环境 中 通过 互动 来 建立 这 些 领 域 的 


决策 知识 。 所 以 ， 目 前 人 工 智能 的 技术 方案 ， 无 法 适用 于 这 些 领域 m。 


3， 目 前 大 模型 的 能 力 初探 


3.1， 如 何 描述 一 个 矩阵 包含 的 信息 的 ? 

如 何 来 描述 一 个 和 矩阵 所 包含 的 信息 的 ? 虽然 一 个 矩阵 可 能 包含 很 多 矢量 ， 但 
我 们 首先 关心 的 是 : 有 多 少 个 独立 的 矢量 ? 也 就 是 说 ， 和 矩阵 的 秩 是 多 少 ? 然后 ， 
我 们 可 以 通过 和 矩阵 对 角 化 ,找到 对 应 的 一 套 特征 向 量 , 它们 数量 上 就 是 矩阵 的 秩 ， 
它们 也 是 这 个 矩阵 的 一 套 坐 标 基底 徐 。 这 套 坐 标 基底 艇 是 完备 的 ， 是 正 交 的 ,是 
这 个 矩阵 的 最 简洁 描述 。 和 矩阵 中 任意 矢量 ， 都 可 以 通过 这 套 坐 标 基底 艇 来 表达 。 

如 果 我 们 建立 的 坐标 基底 徐 并 非 正 交 的 ,但 如 果 是 完备 的 ， 那 么 我 们 同样 可 
以 用 这 套 坐 标 基底 簇 来 表达 和 矩阵 中 任意 信息 。 如 果 坐 标 基底 秘 是 非 完备 的 ， 那么 
和 矩阵 中 就 存在 一 些 矢量 , 无 法 通过 这 套 坐 标 基底 艇 来 表达 ,这 时 就 需要 增加 坐标 
基底 簇 的 维度 。 

那么 ， 我 们 是 如 何 识别 矩阵 中 一 个 矢量 包含 那些 信息 呢 ? 显然 ， 如 果 是 完备 
基底 艇 ,每 个 基底 就 是 一 个 维度 ,任意 矢量 向 坐标 基底 投影 ， 就 能 准确 的 获得 
个 矢量 所 包含 的 所 有 信息 。 如果 基 底 坐 标 徐 是 本 征 正 交 基底 ,那么 我 们 实现 了 用 
最 简洁 的 系数 来 表达 这 个 矢量 的 全 部 信息 。 如 果 基 底 坐 标 艇 不 是 完全 正 交 的 ， 那 
么 我 们 希望 它 尽 可 能 接近 正 交 基 底 复 ， 因 为 这 时 我 们 获得 的 系数 矩阵 是 稀疏 的 。 
通过 稀疏 化 的 系数 矩阵 ， 配合 一 套 基 底 坐 标 簇 , 我 们 就 能 理解 矩阵 中 的 任意 矢量 
包含 的 信息 了 , 而且 这 时 信息 分 量 之 间 相 对 独立 。 所 以 两 个 矢量 之 间 的 关系 ， 就 
体现 在 它们 坐标 基底 分 量 之 间 的 关系 。 

所 以 ， 如 果 在 一 个 和 矩阵 中 ， 两 个 矢量 存在 非 零 的 同一 个 维度 上 的 分 量 ， 我 们 
则 认为 它们 之 间 存 在 局 部 相似 性 。 我 们 可 以 认为 这 两 个 矢量 之 间 存 在 某 种 连接 关 
系 。 如 果 两 个 矢量 ， 存 在 多 个 局 部 相似 性 ,我们 可 以 认为 这 两 个 矢量 之 间 存 在 更 
强 的 某 种 连接 关系 。 如 果 类 似 的 某 种 连接 关系 在 矩阵 中 反复 出 现 ,我 们 就 可 以 认 
为 这 种 连接 是 一 种 普遍 规律 。 这 就 是 知识 。 

所 以 ， 在 一 个 矩阵 中 ， 寻 找 知 识 ， 就 是 寻找 其 中 所 有 的 普遍 规律 。 规 律 本 身 
是 由 和 矩阵 中 部 分 基底 分 量 来 表达 的 ， 既 包括 维度 ， 也 包括 维度 上 的 大 小 。 它 是 从 
大 量 的 矢量 彼此 连接 关系 中 ,获取 的 共有 连接 关系 。 所 以 它 包含 的 维度 更 低 ， 代 
表 的 范围 更 广 。 所 以 知识 是 从 大 量 的 矢量 关系 中 概括 出 来 的 。 每 一 个 知识 本 身 ， 
也 是 和 矩阵 中 一 个 矢量 。 它 们 可 以 用 一 个 系数 矩 阵 来 表达 。 而 大 量 的 这 种 知识 ， 就 
构成 了 知识 网 络 。 

所 以 ， 如 果 我 们 需要 发 现 一 个 矩阵 的 全 部 知识 ， 那 么 ， 最 重要 的 就 是 : 找到 
EEREN, 然后 用 它 来 分 解 矩 阵 中 任意 矢量 ; 然后 通过 系数 和 矩阵 之 间 的 关 
A, 来 获得 不 同 矢量 之 间 的 连接 关系 ;然后 找到 那些 能 重复 出 现 的 连接 关系 ; € 
们 就 是 从 矩阵 信息 中 提取 出 来 的 知识 。 

但 一 个 和 矩阵 可 以 有 多 套 基底 坐标 簇 。 只 要 维度 不 低 于 矩阵 的 秩 ， 任 意 一 个 基 
底 坐 标 复 本 质 上 都 可 以 采用 。 为 了 获得 最 简洁 的 知识 体系 , 我 们 采用 正 交 坐标 簇 
就 可 以 了 。 (AMR HE REAR AS EK, 找到 一 套 正 交 基 底 簇 的 计算 量 难以 实现 。 这 时 ， 
我 们 就 可 以 沿 那些 重复 性 最 高 的 知识 , 用 它们 作为 基底 坐标 簇 。 这样 至 少 和 矩阵 中 
大 部 分 知识 可 以 采用 稀疏 矩阵 来 表达 。 也 就 是 说 , 我 们 获得 了 一 套 可 以 简洁 表达 
和 矩阵 中 常见 知识 的 坐标 基底 复 。 

有 了 基底 坐标 复 , 任意 矢量 都 可 以 分 解 到 基底 坐标 徐 , 采用 系数 和 矩阵 来 表示 。 


任意 矢量 之 间 的 相似 度 ， 都 可 以 通过 它们 的 空间 距离 来 表示 。 而 空间 距离 可 以 采 
用 类 似 欧式 空间 距离 来 表达 。 任意 矢量 之 间 的 映射 关系 ,都 可 以 通过 系数 矩阵 的 
映射 关系 来 实现 。 


3.2 深度 学 习 是 如 何 创建 知识 的 ? 

假设 在 一 个 外 星 世 界 里 ， 有 一 群 人 ， 建 立 了 这 样 一 个 4 维 的 信息 空间 ， 它 包 
含 大 量 的 图 像 、 声 音 和 动作 。 在 那里 的 人 类 ， 她 们 是 通过 像素 、 音 节 和 动作 模式 
来 作为 感知 能 力 底线 的 。 所 以 ， 面 对 纷繁 复杂 的 像素 、 音 节 和 动作 模式 的 各 种 组 
合 ， 她 们 无 法 看 明白 彼此 之 间 的 连接 关系 。 

于 是 ， 她 们 就 开始 采用 试 错 法 ， 尝 试 不 同 的 基底 坐标 徐 ， 希望 找到 一 个 特定 
基底 坐标 簇 , 在 这 样 的 基底 坐标 簇 下 , 她 们 感 兴趣 的 像素 、 音 节 和 动作 模式 组 合 ， 
可 以 形成 彼此 分 离 的 一 簇 一 复 的 。 那 么 ， 这 个 基底 坐标 复 就 是 她 们 需要 的 。 

由 于 原始 数据 的 维度 数量 非常 高 ， 比 如 64*64 图 像 ， 它 们 的 维度 就 是 64*64， 
它们 就 是 64*64 个 二 维 脉冲 函数 作为 基底 的 原始 基底 坐标 艇 ,而 她 们 的 目标 维度 
则 可 能 要 小 的 多 , 可 能 远 小 于 64*64, 这 是 因为 她 们 的 目地 是 找到 常用 特征 组 合 ， 
而 不 是 需要 表达 所 有 信息 ,必然 有 一 部 分 信息 会 损失 ,她 们 不 可 能 把 所 有 原始 信 
息 都 放 到 最 终 的 维度 上 去 。 所 以 , 一 种 可 能 的 试 错 法 ,就 是 每 一 次 尝试 一 种 坐标 
基底 艇 后 ， 就 把 变换 后 的 部 分 维度 信息 丢弃 或 者 压缩 。 然后 和 目标 进行 对 比 ， 看 
看 误差 是 增加 了 还 是 减 小 了 ， 然后 决定 下 一 次 改变 坐标 基底 簇 的 方向 。 显然， 每 
尝试 一 次 ,信息 就 会 损失 一 部 分 。 经 过 多 次 尝试 后 ,信息 的 损失 过 大 ， 可 能 会 导 
致 其 中 有 用 信息 的 损失 ， 从 而 无 法 完成 任务 。 所 以 ， 有 用 信息 在 整体 信息 中 所 占 
比重 ,每 一 次 变换 后 信息 损失 率 ， 就 决定 了 最 多 能 变换 几 次 。 而 在 有 限 的 变换 尝 
试 中 ,机 器 可 能 难以 找到 最 优 的 坐标 基底 徐 。 所 以 ,一 种 可 行 的 解决 方案 就 是 每 
一 次 变换 后 ,把 损失 的 信息 一 部 分 补 回 来 ， 这样 就 能 增加 变换 层 数 ， 从 而 提升 找 
到 最 优 的 坐标 基底 秘 的 概率 。 这 就 是 残 差 网 络 。 当 然 ， 也 可 以 考虑 在 多 次 神经 网 
络 的 映射 过 程 中 ， 插 入 弱 非 线性 函数 ， 来 增加 可 以 变换 的 次 数 。 

在 通过 试 错 法 寻找 最 优 的 坐标 基底 簇 中 ， 导 找 的 方向 是 误差 的 缩小 ， 实 现 的 
工具 是 BP 算法 。 出 现在 神经 元 中 的 数据 实际 上 是 基底 坐标 复 下 的 系数 矩阵 ， 而 
基底 坐标 复 本 身 是 隐 含 的 ,没有 出 现在 多 层 神经 网 络 中 。 层 间 的 变换 系数 ， 是 从 
一 个 隐 含 基底 到 另外 一 个 隐 含 基底 变换 中 的 坐标 系数 变换 矩阵 。BpP 算法 就 是 通 
过 调整 坐标 系数 变换 矩阵 , 来 从 一 个 隐 含 坐标 基底 , 走向 另外 一 个 等 待 尝 试 的 隐 
含 坐标 基底 。 

当然 ， 如 果 尝 斌 中， 选择 的 基底 坐标 簇 本 身 非 正 交 坐 标 系 。 可 能 会 出 现 ， 修 
改 一 个 维度 上 的 系数 时 , 会 影响 到 另外 一 个 维度 上 的 系数 。 这 就 可 能 出 现 一 种 情 
况 ， 那 就 是 所 有 系数 的 调整 ， 整 体 误差 都 不 再 缩小 。 核 心 原因 是 基底 坐标 簇 之 间 
非 正 交 系 带 来 的 。 如 果 是 正 交 系 ， 那 么 就 不 可 能 出 现 这 种 情况 。 所 以 ， 在 尝试 过 
FE, 需要 尽量 走向 正 交 坐标 簇 。 而 接近 正 交 坐标 簇 的 一 个 标志 就 是 系数 矩阵 的 
稀疏 化 。 所 以 ， 整 个 尝试 的 方向 ， 需 要 增加 系数 窍 阵 的 稀 玻 化 约束 ， 这 就 是 各 种 
正则 化 方法 。 

另外 需要 指出 ， 无 论 是 卷 积 ， 还 是 池 化 ， 或 者 其 他 深度 学 习 的 变种 ， 它 们 的 
本 质 都 没有 变化 。 比 如 ， 卷 积 本 质 上 就 是 一 层 神 经 网 络 映射 ， 只 不 过 在 坐标 系数 
变换 矩阵 中 ,人 为 地 预 设 了 大 量 的 0 系数 。 而 池 化 , 无 非 就 是 一 种 去 掉 部 分 维度 ， 
并 采用 特定 非 线性 函数 的 一 层 神经 网 络 映 射 。 这 就 是 深度 学 习 的 本 质 ,也 是 在 矩 
阵 中 寻找 一 套 坐标 基底 的 方法 。 


如 果 ， 空 间 中 的 数据 ， 存 在 标签 ， 那 么 标签 的 数量 ， 就 是 最 终 需 要 的 基底 坐 
标 簇 的 维度 。 她 们 寻找 最 终 基 底 坐 标 簇 的 目的 ,就 是 把 每 一 类 有 标签 数据 中 ， 共 
有 的 最 小 分 辨 率 特征 (这 里 就 是 像素 、 音 节 和 动作 模式 ) 的 组 合 方式 ， 作 为 每 一 
类 标签 的 代表 , 也 作为 一 个 基底 坐标 簇 。 这 样 获得 的 系数 矩阵 就 是 稀 玻 的 。 所 以 ， 
我 们 看 到 , 深度 学 习 的 本 质 , 同样 是 在 信息 矩阵 中 , 寻找 一 套 合适 的 基底 坐标 艇 。 
如 果 把 需要 的 信息 看 着 一 个 信息 子 空间 ,那么 深度 学 习 获 得 的 基底 坐标 饼 ， 就 可 
以 表达 这 个 子 空 间 中 的 任意 矢量 ， 这 就 是 有 监督 学 习 。 如 果 这 个 子 空间 很 大 , 直 
接 就 包含 了 所 有 的 信息 ,那么 深度 学 习 获 得 的 基底 坐标 艇 , 就 可 以 表达 整个 信息 
和 矩阵 中 的 任意 矢量 ,这 就 是 无 监督 学 习 。 如 果 学 习 的 主要 目的 是 聚 类 ,而 丢弃 那 
些 无 法 聚 类 的 信息 ， 那 么 这 也 是 无 监督 学 习 。 


3.3 ”注意 力 机 制 的 本 质 是 什么 ? 

注意 力 机 制 的 核心 ， 就 是 发 现 信息 矩阵 元 素 之 间 的 常见 排列 方式 。 而 常见 排 
列 方 式 ， 就 可 以 选择 为 信息 空间 的 “框架 ”。 所 谓 “ 框 架 ”， 就 是 它们 普遍 存在 
于 信息 窍 阵 中 ， 采 用 它们 作为 坐标 基底 艇 ， 可 以 简洁 的 描述 矩阵 中 常见 矢量 。 

更 通俗 的 说 ， 我 们 可 以 认为 语言 信息 空间 中 ， 每 一 个 字符 都 是 一 个 维度 。 如 
果 我 们 采用 这 样 的 坐标 基底 徐 ， 我 们 就 可 以 用 它 描 述 语言 信息 空间 中 任意 矢量 。 
但 这 样 的 坐标 基底 艇 , 有 可 能 并 不 是 最 优 的 。 如 果 我 们 把 语言 信息 空间 作为 一 个 
矩阵， 那么 最 优 的 坐标 基底 秘 ， 显然 是 由 这 个 矩阵 的 特征 矢量 组 成 的 基底 簇 。 特 
征 矢 量 组 成 的 基底 复 rank 最 小 ， 描 述 信 息 最 简洁 。 

比如 ， 我 们 可 以 把 “我 今天 要 去 参加 朋友 的 婚礼 ”这 人 句 话 ， 按 照 每 个 字符 作 
为 一 个 维度 来 分 解 ， 获 得 的 系数 矩阵 就 是 12 维度 的 。 它 们 就 是 “我 ， 今 ， 天 ， 
要 ， 去 ， 参 ， 加 ， 朋 ， 友 ， 的 ， 婚 ， 礼 ”。 但 我 们 也 可 以 把 “主语 … 谓 语 .… 宾 语 ” 
作为 一 个 坐标 基底 ， 这 个 坐标 基底 的 系数 就 是 “我 参加.… 婚 礼 ”， 然 后 把 “ 副 
词 + 谓 语 ” 作 为 一 个 坐标 基底 ， 这 个 坐标 基底 的 系数 就 是 “今天 要 去 参加 ”， 然 
后 把 “定语 + 宾语 ”作为 一 个 坐标 基底 , 这 个 坐标 基底 的 系数 就 是 “朋友 的 婚礼 ”， 
显然 ， 后 者 采用 了 更 加 简洁 的 基底 坐标 徐 ， 表 达 了 同样 的 信息 。 而 且 ， 后 者 的 基 
底 坐 标 篮 是 框架 性 的 。 这 些 框架 性 的 坐标 复 ， 在 不 同 的 坐标 分 量 下 ， 就 可 以 构成 
大 量 类 似 的 信息 。 

而 注意 力 机 制 的 核心 ， 就 是 建立 “框架 性 ”的 坐标 基底 艇 mn。 采用 的 方法 ， 
就 是 提取 信息 矩阵 元 素 之 间 的 常见 底层 框架 。 这 个 过 程 非常 类 似 于 人 类 的 学 习 。 
我 们 学 习 一 本 书 中 的 信息 时 ，“ 先 读 薄 ， 再 读 厚 ”就 是 同样 的 方法 。“ 先 读 薄 ” 
就 是 总 结 出 其 中 的 框架 性 信息 ， 这 是 一 个 信息 压缩 过 程 ; 然后 “再 读 厚 ” 就 是 在 
框架 性 信息 的 基础 上 , 添加 不 同 的 细节 ， 来 构成 我 们 创造 出 来 的 新 知识 ， 这 就 是 
一 个 信息 创造 过 程 mean9。 

所 以 transformer 类 大 模型 ， 核 心 就 是 通过 注意 力 机 制 四 。 注 意 力 机 制 的 核心 
目的 就 是 获得 信息 矩阵 中 元 素 的 常见 排列 方式 , 并 按照 常见 程度 给 它们 加 权 。 越 
常见 的 排列 ， 权 重 越 高 。 那 些 高 权重 的 排列 方式 ， 就 是 信息 矩阵 中 ， 所 有 信息 组 
织 方式 的 主 框架 。 

这 个 过 程 非常 类 似 于 通信 中 的 信号 处 理 过 程 。 在 时 域 中 ， 看 似 纷乱 复杂 的 信 
息 ,转换 到 频率 后 ,它们 的 低频 成 分 就 决定 了 这 个 信号 的 大 趋势 ， 也 是 这 个 信号 
的 主要 分 量 。 这 些 低频 成 分 ,就 是 在 这 一 类 信号 中 常见 的 组 织 形式 。 如 果 把 每 一 
个 低频 成 分 作为 一 个 基底 坐标 簇 分 量 , 那么 它们 就 类 似 于 注意 力 机 制 。 低 频 成 分 
表达 了 信息 之 间 的 常见 连接 关系 ,它们 是 信息 的 “框架 ”。 所 以 注意 力 机 制 ， 正 


是 通过 寻找 信息 之 间 的 连接 方式 的 权重 ,获得 了 信息 组 织 方式 的 “框架 ”。 这 些 
“框架 ”就 是 泛 化 的 基础 。“ 框 架 ” 和 “框架 ”之 间 的 映射 关系 ,代表 了 “矢量 ” 
到 下 一 个 “矢量 ”的 算法 ， 输 入 “框架 ”+ 不 同 的 细节 ， 就 是 具体 的 输入 矢量 ， 

通过 “矢量 ”到 下 一 个 “矢量 ”的 算法 ， 就 可 以 获得 输出 矢量 ， 这 就 是 知识 泛 化 

事实 上 ， 人 类 在 学 习 过 程 中 ， 采 用 了 同样 的 方式 。 那 些 常 见 特征 组 合 ， 就 是 
有 具体 “概念 ”， 它 们 是 权重 较 高 的 组 合 。 它 们 就 是 空间 和 时 间 上 的 常见 组 合 。 从 
具体 “概念 ”中 进一步 总 结 出 来 的 常见 特征 组 合 ， 它 们 就 是 “抽象 概念 ”。 这 个 
过 程 是 可 以 兴 代 的 。 所 以 人 类 社会 存在 大 量 层次 化 的 “概念 ”， 它 们 就 是 框架 。 
所 以 ,抽象 框架 “ 猫 ” 是 一 种 常见 的 矩阵 元 素 在 空间 和 时 间 上 的 排列 方式 ， 这 个 
排列 方式 中 可 能 包含 “ 猫 ” 的 语言 、 文 字 、 声 音 、 图 像 、 动 作 、 触 觉 等 等 多 模 态 
和 矩阵 信息 元 素 。 这 个 排列 方式 中 ， 部 分 矩阵 元 素 可 能 拥有 更 高 的 权重 ， 因 为 它们 
更 加 常见 ， 它 们 可 能 都 是 “动物 ”这 个 概念 。“ 动 物 ” 包 含 的 元 素 更 少 ， 其 限定 
范围 就 更 小 ， 适 用 范围 就 更 大 ， 所 以 在 “ 猫 ” 和 “ 狗 ” 之 间 ， 和 它们 共有 的 特征 
组 合 〈 比 如 “动物 ”这 个 概念 ) 关联 的 知识 就 可 以 直接 泛 化 。 

所 以 ， 注 意 力 机 制 的 核心 能 力 ， 就 是 把 语言 之 间 的 统计 关联 性 ， 实 例 化 到 其 
体 的 输入 信息 中 。 语 言 之 间 的 统计 关联 性 ， 是 通过 预 训练 获得 的 统计 关联 ， 这 种 
统计 关联 是 一 种 非 完全 统计 关联 。 它 并 没有 统计 所 有 语言 的 排列 方式 中 , 任意 语 
言 排列 组 合 的 元 素 之 间 的 关联 性 ， 因 为 这 是 不 可 能 完成 的 任务 。 所 以 , 在 具体 的 
排列 组 合 下 , 语言 之 间 的 实际 关联 性 ,还 需要 基于 统计 关联 来 进一步 优化 。 而 这 
一 步 又， 就 是 由 注意 力 机 制 来 完成 的 。 

注意 力 机 制 的 核心 目的 ， 就 是 从 统计 关联 性 出 发 ， 采 用 试 错 法 ， 以 人 类 语言 
的 前 后 关系 作为 自 监 督 ， 来 找到 输入 信息 彼此 ， 或 者 输入 、 输 出 信息 之 间 的 关联 
性 ， 并 通过 权重 来 表达 这 种 关联 性 。 而 这 种 关联 性 ,非常 类 似 于 人 类 的 学 习 总 结 
过 程 。 所 以 ， 机 器 通过 深度 学 习 《〈 本 质 就 是 试 错 法 ) ， 来 找到 一 套 优化 的 坐标 基 
底 禾 。 这 套 坐标 基底 复 ， 很 可 能 非常 靠近 人 类 的 常用 概念 。 所 以 ， 深 度 学 习 的 核 
心 是 用 试 错 法 找 基底 坐标 篮 , 而 注意 力 机 制 的 核心 是 用 试 错 法 把 基底 坐标 簇 向 人 


3.4 ”大 模型 为 什么 会 有 能 力 涌现 ? 在 什么 时 候 涌现 ? 

为 什么 大 模型 会 有 “涌现 ”现象 ? 很 简单 的 道理 ,比如 一 个 美国 人 来 到 中 国 ， 
他 可 以 通过 我 们 人 类 之 间 大 量 的 共有 背景 信息 (比如 人 里 需求 、 社 交 结 构 等 )， 
通过 中 等 数量 的 中 英文 对 比 , 就 能 完成 正确 的 翻译 过 程 。 而 大 模型 就 像 一 个 外 星 
A, 它 和 人 类 之 间 并 没有 共同 的 背景 信息 ， 它 看 到 的 东西 ,只 有 人 类 信息 之 间 的 
连接 方式 。 所 以 它 需 要 提取 人 类 信息 之 间 的 连接 方式 ， 来 预测 信息 的 发 展 过 程 。 
一 开始 ， 样 本 不 够 时 ， 它 提取 的 “信息 框架 ”和 人 类 “信息 框架 ”差异 很 大 ， 所 
以 它 会 不 断 犯 错误 ， 在 黑暗 中 摸索 ， 总 是 四 处 碰壁 。 随 着 样本 数量 的 不 断 增加 ， 
它 的 “信息 框架 ”和 人 类 “信息 框架 ”有 更 高 的 概率 对 齐 。 但 这 不 是 一 个 线性 过 
程 。 比 如 在 提升 到 茶 一 个 阐 值 之 前 , 它 就 像 人 类 语言 学 家 解密 古代 语言 一 样 ， 在 
黑暗 中 摸索 ， 进 展 其 微 。 在 某 一 个 节点 上 ， 如 果 正 确 率 达 到 闵 值 ， 整 个 解密 过 程 
就 会 大 大 加 快 ， 急 速 完 成 。 这 就 是 “涌现 ”现象 。 

机 器 “涌现 ”的 并 非 智力 ， 而 是 找到 了 “正确 的 信息 之 间 常 见 组 合 方式 ”。 
这 个 正确 的 信息 之 间 和 常见 组 合 方式 就 是 类 似 于 人 类 使 用 的 方式 ,因为 评价 它 的 一 
切 标 准 都 是 人 类 使 用 的 标准 ， 所 以 当 它 的 基底 足够 多 ， 并 且 和 人 类 基底 靠近 时 ， 


它 的 能 力 就 涌现 出 来 了 。 

大 模型 的 能 力 “ 涌 现 ”， 核 心 是 通过 注意 力 机 制 让 大 模型 产生 的 概念 和 人 类 
概念 靠近 了 。 所 以 训练 数据 必须 足够 ， “涌现 ” 才 可 能 发 生 。 因 为 概念 靠近 人 类 
概念 ， 所 以 出 现 了 泛 化 能 力 。 因 为 人 类 概念 中 ， 存 在 大 量 的 抽象 概念 ， 它 们 是 信 
息 映 射 的 框架 。 比 如 “ 猫 ”就 是 一 个 抽象 的 概念 ， 因为 它 并 不 具体 代表 哪 一 只 猫 。 
所 以 ,比如 给 机 器 大 量 的 输入 信息 和 输出 信息 , 机 器 就 能 建立 这 些 输入 信息 中 的 
框架 信息 , 和 输出 信息 中 的 框架 信息 。 并 建立 从 输入 框架 到 输出 框架 的 映射 过 程 。 
所 以 ， 输 入 框架 + 细节 ， 就 可 以 通过 同样 的 映射 过 程 ， 获 得 输出 框架 + 细节 。 这 就 
是 知识 泛 化 过 程 。 

当 训 练 数据 量 足够 大 ， 机 器 就 可 能 从 中 发 现 常见 复杂 组 合 模式 。 常 见 组 合 模 
式 在 空间 上 的 分 布 就 是 事物 , 常见 组 合 模式 在 时 间 上 的 分 布 就 是 流程 。 常见 组 合 
模式 在 空间 和 时 间 上 的 分 布 ， 就 是 知识 。 所 以 大 模型 看 上 去 就 有 了 关于 事物 、 流 
程 的 知识 。 

这 些 框架 性 知识 ， 就 是 “世界 模型 ”。 人 类 正 是 在 自己 的 框架 性 知识 基础 上 ， 
来 认识 万 物 ， 并 和 万 物 互动 的 。 我 们 可 以 认为 大 模型 类 似 于 从 频 域 来 看 问题 。 类 
似 于 面 对 一 张 图 片 时 , 我 们 可 以 采用 少量 的 低频 分 量 , 来 获得 这 个 图 片 的 主要 内 
容 。 这 就 是 图 像 压 缩 技术 的 核心 。 而 注意 力 机 制 ， 其 核心 是 通过 类 似 的 方式 ， 采 
用 少量 的 分 量 ,来 获得 我 们 这 个 世界 信息 的 主要 内 容 。 一 张 图 片 ， 在 其 低频 分 量 
上 ,通过 配置 不 同 的 高 频 成 分 ， 就 可 以 获得 不 同 的 风格 调整 。 所 以 ， 泛 化 的 核心 
就 是 通过 “框架 ”配置 不 同 的 细节 。 

目前 大 模型 的 核心 能 力 ， 是 通过 深度 学 习 来 建立 “输入 矢量 ”到 下 一 个 “ 矢 
量 ” 之 间 的 转换 矩阵 。 有 了 这 个 转换 矩阵 ， 有 了 框架 信息 ， 机 器 就 能 实现 知识 泛 
化 。 所 以 ， 人 类 只 要 给 它 类 似 的 “输入 矢量 ”到 下 一 个 “矢量 ”的 知识 ， 它 就 可 
以 通过 模仿 “输入 框架 ”到 下 一 个 “框架 ”之 间 的 转换 ， 嵌入 不 同 的 细节 来 做 内 
容 生成 。 比 如 建立 了 “公司 和 创始 人 ”这 样 的 注意 力 机 制 ， 它 就 可 以 把 “ 乔 布 其 
和 苹果 ” 泛 化 到 “雷军 和 小 米 ” 上 。 所 以 大 模型 是 通过 模仿 和 创造 来 执行 任务 的 ， 
这 一 点 和 人 类 非常 相似 。 所 以 大 模型 可 以 实现 小 样本 或 者 零 样板 来 泛 化 , 这 一 点 
都 不 奇怪 。 

所 以 ， 深 度 学 习 是 一 条 简洁 、 优 雅 的 道路 ， 而 注意 力 机 制 则 是 这 条 道路 上 的 
一 处 指示 标 ， 它 指引 人 类 走向 智力 殿堂 的 正确 方向 。 而 “世界 模型 ” 则 是 人 类 在 
这 上 段 跋涉 中 收获 的 果实 。 


Ra 


3.5 RLHF 能 最 终 解 决 大 模型 面临 的 问题 吗 ? 

目前 大 模型 存在 两 个 严重 问题 : 

(一 ) 有 害 内 容 的 问题 四 。 

机 器 的 知识 ， 人 类 很 难 理解 其 含义 ， 但 机 器 可 以 使 用 ， 看 上 去 问题 不 大 。 但 
实际 上 问题 很 严重 。 最 核心 的 问题 就 是 : 人 类 无 法 模仿 机 器 建立 的 知识 网 络 形 式 ， 
给 机 器 预 置 一 些 先 天 知识 ! 这 是 问题 的 核心 。 因 为 无 法 给 机 器 预 置 先天 知识 ， 所 
以 不 可 能 模仿 机 器 建立 的 知识 网 络 形式 ,给 机 器 预 置 一 些 基 础 需求 知识 。 机 器 没 
有 自身 的 需求 , 机 器 就 不 可 能 有 自我 感知 的 奖励 和 惩罚 。 机 器 没有 自我 感知 的 奖 
励 和 惩罚 ， 束 不 可 能 自发 创建 各 种 事物 ( 即 各 种 基底 坐标 簇 组 合 ) 到 自我 奖励 或 
者 惩罚 的 投影 。 也 就 是 说 ， 机 器 所 创建 的 基底 坐标 复 中 ， 缺 乏 了 奖励 、 惩 因 、 快 
乐 、 悲 伤 等 人 类 有 的 ， 也 必须 要 有 的 基础 维度 ! 

这 是 因为 在 基底 坐标 篮 中 缺失 了 这 些 维度 ， 所 以 机 器 不 可 能 把 输入 信息 投影 


到 这 些 维 度 , 识别 出 输入 信息 所 包含 的 这 些 信息 。 也 不 可 能 在 自己 准备 组 合 基 底 
坐标 艇 作为 输出 时 ， 通过 使 用 不 同 的 组 合 ( 也 就 是 说 机 器 的 不 同 决策 路 径 ) 向 这 
些 基 底 坐 标 簇 投 影 ， 从 而 预测 这 些 输 出 潜在 的 奖励 或 者 惩罚 。 

目前 大 模型 采用 的 补救 方法 是 RLHF。 这 相当 于 人 类 事后 对 一 些 训练 矢量 上 ， 
增加 一 个 奖励 维度 的 分 量 。 也 就 是 说 ， 机 器 的 基底 坐标 簇 中 ,增加 了 一 个 奖励 维 
度 。 如 果 在 训练 数据 中 ， 在 大 量 不 同类 型 ， 足 够 数量 矢量 上 ， 增 加 在 奖励 维度 上 
的 分 量 值 ， 就 相当 于 建立 了 这 些 训练 矢量 中 的 共有 的 分 量 组 合 , 到 奖励 维度 的 投 
影 。 这 就 是 机 器 的 奖励 函数 。 所 以 ， 机 器 也 可 以 预测 不 同 决 策 下 ， 也 就 是 按照 不 
同 的 组 合 方式 产生 的 输出 矢量 中 , 包含 的 奖励 分 量 。 所 以 ， 机 器 会 优选 奖励 分 量 
高 的 输出 。 这 就 是 RLHF 学 习 带 来 的 惊人 效果 。 因 为 通过 RLHF 学 习 的 知识 ， 实 际 
上 是 可 以 泛 化 的 。 当 一 个 机 器 有 了 自身 的 奖励 、 惩 罚 维 度 , 就 有 了 自己 初步 的 “ 趋 
利 避 害 意识 ”， 这 就 是 为 什么 我 们 会 从 目前 大 模型 看 到 “意识 ”的 爱 肛 影 子 。 

但 这 是 一 种 事后 打 补 丁 的 方式 , 意味 做 需要 机 器 先 尝 试 , 然后 人 类 打分 反馈 ， 
它 只 能 用 于 可 以 大 量 试 错 的 领域 .这 类 似 于 一 个 孩子 博士 毕业 了 ,但 完全 没有 “是 
AE” 观念 ， 父 母 只 能 跟 在 屁股 后 ， 喊 “No”，“No”，“Yes” 来 赋予 他 “是 非 ” 
观念 ， 而 且 他 和 父母 还 无 法 直接 交流 ， 只 能 通过 “Yes” 和 “No” 来 沟通 。 所 以 ， 
这 样 的 学 习 效 果 效 率 低 ， 而 且 永 远 可 能 碰 到 那些 意 想 不 到 的 corner case! 

(=) 一 本 正经 地 胡说 八道 的 问题 m。 

注意 力 机 制 是 通过 寻找 信息 之 间 的 连接 方式 的 权重 。 机 器 通过 注意 力 机 制 
《权重 ) + 深度 学 习 《【〈 试 错 法 ) 获得 了 信息 组 织 方 式 的 “框架 ”。 这 些 “ 框 架 ” 
就 是 泛 化 的 基础 。“ 框 架 ” 和 “框架 ”之 间 的 映射 关系 ， 代 表 了 “矢量 ”到 下 一 
个 “矢量 ”的 算法 ， 输 入 “框架 ”+ 不 同 的 细节 ， 就 是 具体 的 输入 矢量 ， 通 过 “ 矢 
量 ” 到 下 一 个 “矢量 ”的 算法 ， 就 可 以 获得 输出 矢量 ， 这 就 是 知识 泛 化 过 程 。 

但 需要 注意 的 是 ， 机 器 通过 “框架 ”到 “框架 ”的 映射 ， 可 能 产生 并 不 存在 
的 “事实 ”! 比如， 机 器 发 现 很 多 记者 的 简介 后 面 ， 都 会 有 记者 的 其 他 文章 网 
页 链接 ， 或 者 附 上 记者 过 去 获得 的 奖项 。 如 果 机 器 见 到 这 种 信息 组 织 模式 很 多 ， 
那么 这 种 信息 组 织 模式 就 会 成 为 “框架 ”到 “框架 ”的 映射 。 所 以 如 果 输 入 信息 
中 包含 了 类 似 的 框架 ， 但 只 是 记者 名 字 不 一 样 ， 那 么 机 器 都 可 以 通过 “框架 + 细 
节 ”， 了 映射 到 “框架 + 细节 ”， 从 而 在 输出 也 产生 很 多 网 页 链接 ， 或 者 是 奖项 。 
但 这 些 网 页 链接 和 奖项 也 是 通过 其 他 “框架 + 细节 ”映射 到 “框架 + 细节 ”建立 的 ， 
它们 很 可 能 根本 就 不 存在 ! 

这 些 问 题 ， 大 模型 难以 解决 。 一 种 方案 是 : RLHF 可 以 用 于 打 碎 这 种 “框架 ” 
到 “框架 ”的 映射 ,让 机 器 不 要 产生 对 应 的 文章 网 页 链接 或 者 奖项 ， 但 这 同时 也 
降低 了 大 模型 的 能 力 。 另 外 一 种 方案 是 : 通过 搜索 引擎 ， 把 和 输入 相关 的 信息 ， 
加 入 到 用 户 的 输入 问题 中 ， 从 而 使 得 机 器 获得 的 输入 中 包含 更 多 的 细节 ， 这 样 在 
“框架 + 细节 ”映射 到 “框架 + 细节 ”的 过 程 中 ， 产 生 更 加 个 性 化 的 知识 。 同 样 ， 
这 是 一 个 治标 不 治本 的 解决 方案 ， 因 为 搜索 引擎 获得 的 知识 本 里 就 不 一 定 正确 
而 且 针 对 某 一 个 有 具体 问题 ， 搜 索引 擎 能 获得 的 知识 很 有 限 。 

所 以 ， 我 们 认为 RLHF 是 一 种 解决 方案 ， 但 它 不 是 最 终 解决 方案 。 


~ 


4 注意 力 机 制 + 深度 学 习 + 强 化 学 习 ， 是 走向 通用 人 工 智 能 的 正确 道 
路 吗 ? 


大 模型 就 可 以 实现 通用 人 工 智 能 了 吗 ? 我 们 认为 答案 是 否定 的 。 

深度 学 习 就 是 从 大 量 的 样本 中 ， 获 得 一 套 优化 的 坐标 基底 艇 。 并 使 用 这 样 的 
坐标 基底 艇 来 表达 矢量 。 所 以 ， 把 深度 学 习 和 注意 力 机 制 结合 起 来 后 ， 就 能 产生 
类 似 于 人 类 表达 方式 的 优化 的 坐标 基底 复 。 这 就 是 Transformer 能 产生 智力 “ 消 
现 ” 的 真正 原因 。 

在 NLP 方面 ， 人 类 从 早期 的 词 袋 模型 、 词 向 量 到 EMLOz， 直 到 Transformer, 
才 真 正 地 实现 了 注意 力 机 制 ， 并 和 深度 学 习 无 颖 地 结合 起 来 了 , 创建 了 难以 置信 
的 奇迹 。 这 就 是 LLM。 我 们 注意 到 ， 这 些 技术 采用 的 道路 是 “ 先 矢 量化 ， 建 立 初 
步 关系 ; 然后 通过 试 错 法 ,来 调整 坐标 基底 复 ; 然后 在 优选 的 坐标 基底 簇 下 ， 青 
次 矢量 化 ， 获 得 正确 的 关系 ”。 这 样 的 机 制 ， 导 致 需要 的 数据 量 极 大 ， 并 且 知 识 
是 通过 训练 过 程 一 次 成 型 ， 难 以 实时 更 新 的 问题 ma。 

首先 ， 我 们 注意 到 ， 深 度 学 习 和 人 类 学 习 存 在 两 个 不 同 点 : (LD 它 采 用 的 
最 小 信息 元 素 不 一 样 , 人 类 是 用 自己 能 感知 到 的 最 小 局 部 特征 来 作为 信息 空间 中 
的 基础 元 素 。 而 深度 学 习 是 用 它 方便 使 用 的 像素 、 音 节 或 者 动作 模式 作为 基础 元 
Ao 而且 这 些 基础 元 素 实际 表现 为 数据 串 在 时 间 、 空 间 上 的 排列 。 所 以 深度 学 习 
建立 的 矩阵 中 最 小 信息 单元 元素) ， 尽 管 可 能 和 人 类 的 元 素 相似 ,但 可 能 并 不 
相同 。 也 许 ， 它 可 能 找到 一 套 更 加 简洁 和 高 效 的 元 素 。 

同 理 ， 深 度 学 习 基 于 这 些 最 小 信息 单元 所 创造 的 基底 坐标 簇 ， 同 样 可 能 和 人 
类 的 概念 不 一 致 ， 人 类 难以 理解 。 但 它 同样 可 能 建立 了 一 套 更 加 简洁 和 高 效 的 概 
念 。 所 以 ， 深 度 学 习 确 实 是 一 个 优雅 的 解决 方案 ! 但 它 更 加 适合 机 器 的 世界 。 当 
人 类 以 人 类 的 标准 来 评价 机 器 时 ， 我 们 会 就 认为 机 器 有 时 候 会 犯 智障 。 

其 次 ， 上 面 这 个 问题 ， 在 引入 注意 力 机 制 后 ， 确 实 能 解决 部 分 问题 。 通 过 注 
意 力 机 制 , 深度 学 习 获 首先 关注 到 最 小 信息 单元 之 间 的 关系 ,并 以 这 些 关系 为 基 
础 来 创建 基底 坐标 徐 , 但 由 于 机 器 面 对 的 是 数据 , 从 数据 中 获得 的 最 小 信息 单元 ， 
依然 可 能 和 人 类 的 最 小 信息 单元 不 一 致 ， 所 以 机 器 所 创建 的 “概念 ”依然 可 能 和 
人 类 存在 很 大 差异 ， 这 是 导致 机 器 不 能 真正 懂得 语言 的 核心 问题 ! 

机 器 的 知识 ， 人 类 很 难 理解 其 含义 ， 但 机 器 可 以 使 用 ， 看 上 去 问题 不 大 。 但 
实际 上 问题 很 严重 。 

最 核心 的 问题 就 是 ， 人 类 无 法 模仿 机 器 建立 的 知识 网 络 形式 ， 给 机 器 预 置 一 
些 先天 知识 ! 这 是 问题 的 核心 。 因 为 无 法 给 机 器 预 置 先 天 知识 ， 所 以 不 可 能 模仿 
机 器 建立 的 知识 网 络 形式 ， 给 机 器 预 置 一 些 基础 需求 知识 。 

目前 人 工 智 能 最 大 的 缺陷 是 机 器 没有 自身 的 需求 。 因 为 没有 自身 的 需求 ， 所 
以 不 会 自发 产生 目标 。 没 有 自发 的 目标 ， 就 不 可 能 有 自发 的 行为 。 而 机 器 有 自发 
的 行为 ， 就 是 机 器 给 自己 编程 。 能 给 自己 编程 的 机 器 ， 才 是 真正 的 智能 机 器 。 而 
需要 靠 外 部 编程 的 机 器 ， 始 终 都 是 人 类 智慧 驱动 的 机 器 。 

如 何 建立 机 器 的 需求 ? 首先 ， 机 器 的 需求 本 身 就 必须 是 知识 的 一 部 分 。 因 为 
只 有 这 样 , 机 器 才能 根据 自身 知识 ， 和 环境 互动 决策 , 来 满足 自身 的 需求 。 所 以 ， 
需求 就 是 知识 。 

为 了 实现 需求 就 是 知识 ， 我 们 需要 模仿 记忆 库 中 最 终 网 络 形式 ， 给 机 器 预 置 
一 个 先天 的 “最 小 利 浆 ”内 核 。 通 过 “ 利 效 内 核 + 小 样本 学 习 + 不 断 累积 ”， 最 终 
形成 “ 带 利 次 信息 的 全 连接 知识 网 络 ”。 有 了 “ 带 利 次 信 息 的 全 连接 知识 网 络 ”， 
机 器 根据 自己 的 知识 ， 自 主 预测 各 种 决策 路 径 下 ， 可 能 带 来 的 奖 罚 值 。 所 以 机 器 
就 可 以 按照 趋 利 避 害 的 原则 ， 自 己 做 出 决策 。 

所 以 机 器 的 所 有 目标 ， 是 机 器 自己 创建 的 ! 只 有 这 样 ， 机 器 才 可 能 在 复杂 的 


环境 下 ， 自 顶 而 下 ， 根 据 具 体 情 况 ， 自 主 在 现场 创建 子 目 标 ， 自 主 决策 ， 自 主 完 
成 任务 ! 一 切 预先 把 任务 分 解 后 ， 再 执行 的 AGl， 它 们 依然 是 程序 驱动 的 ， 无 非 
就 是 程序 的 接口 可 以 采用 自然 语言 而 已 。 它 们 会 在 真实 世界 中 层出不穷 的 意外 情 
况 下 不 断 碰壁 ! 

有 了 能 自我 编程 的 机 器 ， 还 必须 配套 相应 的 知识 ， 才 能 真正 实现 和 真实 环境 
互动 决策 的 流程 。 目 前 机 器 和 环境 互动 决策 的 知识 ， 主 要 通过 强化 学 习 来 完成 。 
而 强化 学 习 只 适用 于 那些 可 以 大 量 试 错 的 领域 。 而 面 对 难 以 试 错 的 领域 ， 比 如 照 
顾 病人 ， 比 如 农业 生产 ， 又 该 如 何 处 理 呢 ? 

十 多 年 前 ， 我 们 专利 的 几 位 发 明 人 人， 讨论 应 该 按照 人 类 学 习 模 式 ， 采 用 小 样 
本 学 习 来 建立 人 工 智 能 。 所 以 ， 一 开始 也 是 试图 走 “ 符 号 表达 ”一 “常识 + A 
果 逻 辑 ” 一 “知识 网 络 ”。 尝试 几 年 后 ， 发 现 这 条 路 的 第 一 步 就 走 不 通 。 因 为 
“符号 表达 ”一 “ 狗 ” 怎 么 表达 ? 需要 把 “ 狗 ” 的 所 有 特征 挑选 出 来 。 但 “ 狗 ” 
可 以 是 一 个 动物 , 也 可 以 是 一 个 人 ! 可 以 是 “一 种 被 歌颂 的 性 格 ”, 还 可 能 是 “一 
种 被 鄙视 的 性 格 ”.…“ 狗 ”和 “ 狗 腿 子 ” 差 十 万 八 千里 ! 所 以 “ 狗 ” 的 本 质 是 “ 狗 ” 
和 其 他 所 有 事物 关系 的 总 和 。 这 是 模仿 马克 思 对 人 的 定义 来 定义 “ 狗 ” 所 以 “ 狗 ” 
必须 放 到 整个 知识 网 络 中 ,通过 它 和 其 他 所 有 知识 的 关系 来 定义 。 所 以 ，“ 符 号 
主义 ” 走 不 通 ! 因为 “ 狗 ” 不 能 从 其 他 知识 中 分 割 出 来 ! 必须 建立 类 似 于 深度 学 
习 的 “全 连接 知识 网 络 ”， 这 是 我 们 的 第 一 个 结论 。 

因为 “ 狗 ” 必须 放 到 整个 知识 网 络 中 ， 通 过 它 和 其 他 所 有 知识 的 关系 来 定义 。 
所 以 必须 要 有 足够 的 知识 ， 才 能 把 “ 狗 ” 这 个 事 说 明白 。 所 以 , “知识 数量 必须 要 
足够 “， 这 样 才能 通过 足够 的 背景 知识 来 理解 什么 是 狗 。 这 是 我 们 的 第 二 个 结论 。 
我 们 回头 一 看 ， 这 不 就 是 大 模型 干 的 事 吗 ?“ 注 意 力 机 制 + PRES REF 
连接 网 络 这 事 ， 大 模型 就 是 干 “ 使 用 大 量 知 识 ， 来 建立 全 连接 知识 网 络 " 这 事 。 

那么 ， 为 什么 我 们 没有 看 到 满 大 街 走 动 的 机 器 人 ?因为 只 有 知识 网 络 还 不 行 ! 
还 必须 要 能 够 “和 环境 互动 ， 能 连续 决策 ”"! 而 目前 的 人 工 智能 ， 和 环境 互动 的 决 
策 知 识 都 是 靠 强 化 学 习 来 训练 。 目 前 AX 算法 ,本质 是 理想 化 的 最 强 “ 强 化 学 习 ” 
算法 , 它 需 要 的 计算 量 , 预测 比 宇宙 的 原子 都 还 多 , 是 无 法 实现 的 。 “alpha go” 就 
是 采用 AX SUE, 通过 “蒙特 卡 洛 树 搜 索 ” 对 运算 量 进 行 修剪 , 才 把 下 围棋 需要 的 
计算 量 降下 来 。 所 以 , 要 想 走 向 通用 人 工 智 能 , 一 条 可 能 道路 就 是 : 大 模型 + AIXI 
算法 (地 球 人 最 强 的 强化 学 习 算 法 ) 。 那 么 ， 为 什么 我 们 没有 看 到 Google 推出 
满 大 街 走 动 的 机 器 人 ? 

这 条 路 的 核心 障碍 是 ，AIXI 算法 需要 的 两 个 前 提 条 件 w: (1) ， 机 器 需要 知 
道 不 同 决策 路 径 下 ， 它 能 获得 的 奖励 信息 。 (2) ， 机 器 需要 遍历 搜索 所 有 决策 
可 能 性 。 这 两 个 条 件 , 在 游戏 里 能 完美 满足 。 因 为 游戏 里 最 终 和 输赢 就 是 奖励 函数 。 
通过 玩 一 千 万 次 ， 就 能 总 结 出 每 一 步 决 策 的 利 疯 了 ， 这 就 是 决策 知识 ; 并 且 游 戏 
的 决策 知识 搜索 空间 限制 在 游戏 里 ， 所 以 机 器 需要 的 算 力 是 有 上 限 的 。 但 现实 生 
活 中 , 人 生 只 有 一 次 , 不 可 能 无 限 复 盘 来 获取 互动 决策 经 验 ; 而 且 和 游戏 不 一 样 ， 
面 对 一 个 任务 , 并 没有 明确 限定 的 信息 搜索 范围 ! 所 以 训练 机 器 打 游 戏 、 元 宇宙 、 
语言 文字 图 像 生 成 可 以 试 错 ， 但 在 真实 环境 里 ， 开 车 、 做 饭 、 照 顾 孩 子 、 护 理 病 
AWE? 这 些 无 法 试 错 的 领域 ， 目 前 的 人 工 智 能 技术 道路 就 解决 不 了 ! 


5 什么 样 的 道路 ， 才 是 走向 通用 人 工 智 能 的 正确 道路 ? 
我 们 认为 ， 通 过 真正 的 “机 器 学 习 ” 实 现 真 正 的 “通用 人 工 智 能 ”， 需 要 3 


个 前 提 条 件 : 

前 提 条 件 1: 足够 知识 + 全 连接 网 络 ， 不 能 有 任何 外 挂 ! 任何 外 挂 ， 和 知 
识 网 络 都 无 法 融 为 一 体 ， 容 易 偶 发 智障 ! 

前 提 条 件 2: 让 机 器 自己 来 预测 各 种 决策 路 径 下 的 奖 罚 信 息 ! 所 以 机 器 必须 
像 人 一 样 : 自己 能 预测 各 种 决策 路 径 下 的 奖 罚 值 ， 只 需要 做 少量 尝试 ; 不 是 啥 事 
都 要 去 试验 一 百 万 次 ! 

前 提 条 件 3: 让 机 器 可 以 直接 学 习 人 类 所 积累 的 经 验 ! 目前 主流 技术 的 本 质 
是 试 错 ， 这 叫 “ 机 器 进化 ”! 人 类 从 单 细 胞 生物 那样 的 智能 ， 进 化 到 今天 ， 用 了 
JALE! 所 以 机 器 必须 要 能 够 直接 学 习 人 类 文明 史 所 积累 的 经 验 ， 不 能 再 走 “ 进 
化 ”的 老路 ! 

我 们 历时 十 年 ， 在 真正 “通用 人 工 智 能 ”需要 的 3 个 前 提 条 件 指 引 下 ， 提 出 
了 一 套 技术 方案 ceaemea。 它 通过 真正 的 机 器 学 习 ， 实现 真正 的 “通用 人 工 智 能 ”， 
主要 包括 : 

(一 ) ， 建 立 一 套 人 类 可 以 理解 的 全 连接 知识 网 络 。 而 建立 的 方法 ， 就 是 通 
过 注意 力 机 制 和 记忆 和 遗忘 机 制 来 实现 的 。 记 忆 和 遗忘 机 制 主要 实现 统计 关联 ， 
而 信息 的 注意 力 机 制 则 是 在 统计 关联 的 基础 上 , 通过 链 式 联想 激活 过 程 ,通过 激 
活 值 多 路 径 累 积 ， 通 过 激活 值 随时 间 消 退 来 实现 的 。 

(二 ) 因为 我 们 的 全 连接 知识 网 络 是 人 类 可 以 理解 的 网 络 组 织 形式 (事实 上 ， 
它 就 是 一 个 数据 库 ) 。 所 以 ， 我们 可 以 模仿 记忆 库 中 最 终 网 络 形式 ， 给 机 器 预 置 
一 个 先天 的 “最 小 利 浆 ”内核 。 通 过 “利弊 内 核 + 小 样本 学 习 + 不 断 累 积 ”， 最 终 
形成 “ 带 利 次 信 息 的 全 连接 知识 网 络 ”。 有 了 “ 带 利 闵 信 息 的 全 连接 知识 网 络 ”， 
机 器 根据 自己 的 知识 ， 自 主 预测 各 种 决策 路 径 下 ， 可 能 带 来 的 奖 罚 值 。 所 以 机 器 
就 可 以 按照 趋 利 避 害 的 原则 ， 自 己 创 建 目 标 ， 自 己 做 出 决策 。 只 有 这 样 ， 机 器 才 
可 能 面 对 复杂 的 环境 下 ， 自 顶 而 下 ,根据 具体 情况 ， 自 主创 建 目标 ， 自 主 决策 
自主 完成 任务 ! 

(=) 机 器 面 对 的 环境 千差万别 ， 机 器 面 对 的 任务 也 是 千差万别 ， 所 以 ， 机 
器 不 可 能 在 任意 环境 下 ,通过 训练 来 获得 任意 任务 的 相关 互动 决策 知识 ! 这 是 一 
个 不 可 能 完成 的 任务 ! 

所 以 ， 我 们 必须 转变 思路 。 从 人 类 的 学 习 获 得 启示 。 事 实 上 ， 人 类 面 对 任 务 
时 ， 所 有 的 决策 都 是 围绕 趋 利 避 害 这 个 核心 来 决策 的 。 所 以 才 会 有 回避 ， 拒 绝 ， 
寻找 更 多 的 帮助 等 行为 。 这 些 行为 本 质 上 是 人 类 创建 的 新 行为 。 人 类 不 是 直接 去 
处 理 任 务 ， 而 是 把 任何 任务 转换 为 “如 何 满 足 自身 需求 ”的 问题 

同 理 ， 机 器 也 必须 这 样 。 让 机 器 在 日 常生 活 中 ， 不 断 学 习 “ 如 何 满足 自身 需 
求 ”的 过 程 。 因 此 ， 针 对 任意 任务 ， 机 器 都 是 按照 自身 需求 ， 把 它 转换 为 “如 何 
满足 自身 需求 ”这 个 任务 。 而 在 这 个 任务 上 ， 它 有 大 量 可 以 泛 化 的 经 验 ， 因 为 它 
的 所 有 学 习 过 程 ， 都 是 围绕 这 个 任务 进行 的 。 所 以 ， 我 们 提出 的 解决 方案 是 : 机 
器 的 学 习 过 程 ， 不 能 以 任务 为 导向 ， 而 是 应 该 以 机 器 自身 需求 为 导向 。 如 果 机 器 
拥有 自身 的 需求 ,并 且 拥 有 如 何 满足 自身 需求 的 相关 知识 ,那么 机 器 就 可 以 创建 
出 新 的 行为 ， 来 满足 自身 的 需求 。 也 就 是 说 ， 机 器 实现 了 自己 给 自己 “编程 ”， 
而 且 需 要 编程 的 任务 只 有 一 个 “如 何 满足 自身 需求 ”， 机 器 的 所 有 知识 也 都 是 围 
绕 “ 如 何 满足 自身 需求 ”来 建立 的 。 所以， 我们 的 机 器 ,才能 完成 任意 任务 。 它 
是 在 完成 “如 何 满足 自身 需求 ”的 过 程 中 ， 也 对 完成 了 人 类 给 予 的 具体 任务 。 完 
成 的 结果 有 可 能 是 “完成 ”、“ 拒 绝 ” 或 者 “进一步 寻找 更 多 的 信息 来 做 评估 ”。 

如 果 我 们 给 机 器 预 置 了 多 种 对 人 类 正面 反馈 的 先天 需求 ， 那 么 机 器 就 是 安全 


的 ， 而 且 它 也 会 主动 一 步 步 分 解 任务 和 完成 任务 。 

所 以 ， 机 器 自 始 自 终 ， 都 在 学 习 完 成 一 件 任务 “如 何 满足 自身 需求 ”， 它 也 
自 始 自 终 ， 都 在 处 理 一 件 任务 “如 何 满足 自身 需求 ”。 而 完成 具体 的 任务 ， 这 和 是 
处 理 “ 如 何 满足 自身 需求 ”任务 途中 的 副产品 。 

所 以 ， 建 立 真 正 的 通用 人 工 智 能 ， 一 条 可 行 的 道路 就 是 : 模仿 机 器 的 知识 组 
织 形式 , 预 置 机 器 的 需求 。 然后 , 机 器 创建 的 知识 中 , 需要 包含 需求 相关 的 知识 。 

什么 是 知识 ?就 是 常见 特征 在 时 间 、 空 间 中 的 排列 方式 ! 什么 是 需求 相关 的 
知识 ?就 是 常见 特征 在 时 间 、 空 间 中 的 排列 方式 , 这 种 排列 方式 中 包含 了 机 器 的 
需求 信息 。 和 常见 特征 在 时 间 、 空 间 中 的 排列 方式 ， 如 果 包含 了 机 器 的 需求 ， 就 是 
主观 常识 。 也 就 是 “世界 ”和 “我 ”的 关系 。 常 见 特征 在 时 间 、 空 间 中 的 排列 方 
式 ， 如 果 不 包含 了 机 器 的 需求 ， 就 是 客观 常识 。 也 就 是 “万 物 之 间 ” 的 关系 。 所 
以 ， 第 见 特 征 在 时 间 、 空 间 中 的 排列 方式 ， 就 是 常识 。 要 实现 真正 的 通用 人 工 智 
能 ， 最 核心 的 就 是 要 实现 “常识 ”! 有 了 第 识 ， 机 器 才 会 根据 自身 需求 ， 主 动 去 
解决 任务 ， 主 动 去 创建 流程 。 也 就 是 说 ， 机 器 给 自己 编程 !: 这 才 是 真正 的 智 意 ! 
而 目前 大 模型 + 万 物 APP 的 方式 ， 依 然 没 有 脱离 人 类 编程 的 方式 ! 

(四 ) 机 器 需要 把 知识 网 络 + 机 器 需求 + 价值 评 佑 融 为 同一 个 网 络 。 机 器 
在 日 常生 活 中 ， 就 是 不 断 学 习 “ 如 何 满足 自身 需求 ”的 过 程 。 因 此 ， 针 对 这 个 问 
A, 它 有 大 量 可 以 泛 化 的 经 验 。 如 果 我 们 给 机 器 预 置 了 多 种 对 人 类 正面 反馈 的 先 
天 需求 ， 那 么 机 器 就 是 安全 的 ， 而 且 它 也 会 主动 一 步 步 分 解 任务 和 完成 任务 。 

先天 需求 里 面 ， 需 要 包含 机 器 自身 的 运作 需求 ， 这 样机 器 就 会 去 维护 自身 的 
运转 。 也 需要 包含 人 类 给 机 器 预 置 的 需求 ， 比 如 机 器 淘 望 获得 人 类 的 正面 反馈 ， 
这 和 人 类 小 孩 一 样 。 通 过 这 样 的 方式 ， 我 们 就 可 以 和 机 器 互动 ， 从 小 训练 ， 让 机 
器 的 价值 观 和 人 类 对 齐 。 建立 起 机 器 的 本 能 需求 , 也 建立 起 机 器 的 高 阶 价值 观 需 
求 ， 比 如 “道德 观 ”，“ 遵 守法 律 ” 等 。 同 时 ， 我 们 还 可 以 预 置 少量 先天 知识 ， 
这 些 先 天 知识 主要 是 用 于 不 可 试 错 的 领域 ,比如 最 小 的 “ 巧 崖 躲避 ”知识 。 这 样 ， 
我 们 就 创造 出 一 个 孩子 ， 它 有 需求 ， 它 自私 ， 它 有 少量 和 生存 相关 的 本 能 知识 。 
但 它 渴 望 人 类 的 认可 。 它 有 一 套 和 人 类 沟通 的 先天 语言 《比如 只 需要 认识 点 头 或 
者 摇头 的 先天 知识 就 可 以 了 ) 。 然 后 ， 基 于 和 人 类 沟通 的 先天 语言 ， 人 类 可 以 慢 
慢 和 机 器 建立 更 加 复杂 的 沟通 方式 ， 比 如 语言 。 然 后 ， 机 器 通过 在 实际 环境 中 学 
习 ， 既 可 以 通过 自我 总 结 获 得 知识 , 也 可 以 通过 语言 学 习 直 接 获得 人 类 已 有 的 知 
识 ， 还 可 能 利用 它 无 与 伦比 的 强大 能 力 发 现 人 类 没有 发 现 的 常见 特征 排列 方式 ， 
尽管 这 些 特征 在 时 间 和 空间 上 的 排列 模式 ， 对 人 类 并 不 明显 , 但 机 器 可 以 通过 统 
计 发 现 , 并 且 可 以 模仿 人 类 采用 符号 来 表达 常见 排列 的 方式 , 采用 符号 来 表达 新 
发 现 的 常见 特征 排列 方式 。 这 就 是 机 器 创建 的 新 知识 。 

这 是 一 个 迭代 过 程 。 机 器 给 自己 编程 ， 让 自己 发 现 更 多 的 知识 ， 它 将 会 发 展 
为 超级 智能 ! 

《五 ) 机 器 需要 通过 小 样本 、 累 积 学 习 。 这 样 才 可 能 实现 知识 的 实时 更 新 。 

在 现实 生活 中 ， 大 量 的 任务 需要 通过 机 器 和 环境 互动 来 一 步 步 完 成 。 所 以 ， 
环境 的 任何 反馈 ， 都 必须 立即 成 为 机 器 下 一 步 决策 的 依据 。 并 且 这 种 决策 知识 ， 
需要 立即 更 新 到 机 器 的 知识 库 中 。 和 否则， 机 器 下 一 次 会 犯 同样 的 错误 。 而 目前 人 
工 智能 , 采用 大 数据 样本 , 知识 主要 通过 一 次 训练 完成 。 即 使 是 针对 任务 的 微调 ， 
也 无 法 实现 实时 更 新 。 所 以 ， 真 正 的 学 习 道 路 ， 应 该 是 小 样本 、 累 积 学 习 。 这 样 
的 学 习 方 式 ， 和 人 类 更 相似 ， 才 可 能 实现 实时 更 新 。 


5 人工 智能 的 演进 方向 初探 


我 们 认为 ， 人 工 智 能 的 发 展 可 以 近似 分 为 不 同 的 阶段 : 〈1) 在 实现 真正 的 注 
意 力 之 前 的 阶段 , 可 以 认为 是 “特征 探索 ”阶段 。 深 度 学 习 之 前 , 主要 集中 在 “人 
工 探索 ”阶段 。 人 工 探 索 有 可 以 是 “专家 系统 ”、“ 知 识 百 科 ”、“ 概 率 统 计 ” 
等 方式 。 在 深度 学 习 之 后 , 集中 在 “机 器 探索 ”阶段 , 让 机 器 从 大 样本 中 自己 “ 探 
索 特 征 ”。 (2) 在 实现 了 真正 的 注意 力 (Transformer) 之 后 ， 因 为 机 器 的 “ 知 
识 ” 和 人 类 “知识 ”初步 对 齐 后 ， 可 以 认为 机 器 实现 了 “知识 泛 化 ”。 面 对 人 类 
的 任务 ， 机 器 可 以 通过 “知识 泛 化 ”表现 出 一 定 的 智能 。 在 未 来 ， 我 们 认为 人 工 
智能 需要 发 展 到 下 一 个 阶段 ; “自主 互动 ”阶段 。“ 自 主 ” 意 味 着 机 器 不 再 是 沉 
默 的 “机 器 ”， 它 能 够 自发 地 产生 行为 〈 这 等 同 于 给 自己 编程 ) ， 机 器 会 自我 探 
索 知 识 〈 比 如 主动 和 环境 互动 ， 获 得 知识 ) 。“ 互 动 ” 意 味 着 机 器 可 以 和 环境 实 
时 互动 ， 实 时 更 新 自己 的 知识 ， 并 能 进行 连续 决策 ,在 陌生 环境 下 完成 复杂 的 任 


务 。 


而 实现 “自主 互动 ”的 核心 是 机 器 需要 有 自身 的 需求 。 机 器 的 需求 必须 是 机 
器 知识 的 一 部 分 ， 这 样机 器 才 可 能 利用 自身 的 知识 ,来 创建 行为 ， 从 而 满足 自身 

而 实现 机 器 需求 的 核心 是 首先 要 创建 人 类 可 以 理解 的 知识 网 络 。 只 有 这 样 ， 
人 类 才 可 以 模仿 知识 网 络 的 形式 ， 预 置 机 器 的 需求 。 然 后 让 机 器 围绕 自身 的 需求 
来 学 习 ， 从 而 建立 起 所 有 信息 和 需求 之 间 的 连接 关系 。 所 以 机 器 的 知识 都 是 和 需 
求 相 关 的 。 这 样 ， 机 器 才 可 以 把 任何 具体 任务 转换 为 “如 何 满足 自身 需求 ”这 样 
的 单一 任务 。 而 机 器 的 所 有 探索 和 学 习 过 程 ， 也 都 是 围绕 “如 何 满足 自身 需求 
这 个 任务 展开 的 。 所 以 机 器 面 对 “ 如 何 满足 自身 需求 ” 时， 有 大 量 可 以 泛 化 的 经 
验 。 只 有 这 样 ， 机 器 才 可 能 处 理 各 种 难以 试 错 的 任务 。 事 实 上 ， 我 们 认为 ， 人 类 
也 是 使 用 类 似 的 方法 来 获得 知识 和 处 理 问题 的 。 

人 工 智 能 面向 “自身 需求 ”， 而 不 是 面向 “外 部 任务 ”是 一 种 范式 的 转变 。 
我 们 认为 这 种 范式 转变 是 必要 的 。 因 为 外 部 任务 千差万别 ,大量 的 任务 必须 和 实 
际 环境 互动 。 它 们 难以 试 错 ， 就 难以 获得 大 数据 样本 ， 就 难以 通过 强化 学 习 来 获 
得 决策 知识 。 另外， 让 机 器 针对 每 种 类 型 的 任务 进行 训练 ， 本身 也 是 一 个 不 可 能 
完成 的 任务 。 

通用 人 工 智 能 是 人 工 智能 的 初 心 , 也 是 人 工 智 能 的 桂冠 。 我 们 提出 了 一 套 实 
现 通 用 人 工 智能 的 技术 方案 。 在 参考 文献 [25][261[27][28] 中 ， 我 们 提出 了 实现 这 
条 道路 的 详尽 技术 细节 , 它 有 可 能 是 一 条 引导 人 类 走向 通用 人 工 智 能 的 可 行道 路 。 

在 这 套 方案 中 ,机 器 的 需求 是 由 人 类 预 置 的 ， 是 可 以 有 多 种 需求 的 ， 所 以 机 
器 产生 的 目标 也 是 多 目标 的 。 目 前 人 工 智 能 是 单一 目标 ， 从 性 格 来 讲 ， 可 以 认为 
它 就 是 “为 了 目标 ， 不 择 手 段 ” 的 人 工 智 能 。 因 为 这 样 的 人 工 智 能 ， 它 只 追求 单 
一 目标 ， 而 不 会 去 考虑 目标 之 外 的 任何 东西 。 所 以 ， 这 是 非常 危险 的 人 工 智能 ! 
而 在 我 们 的 方案 中 ， 多 目标 也 包括 对 齐 人 类 的 价值 观 ， 包 括 “ 道 德 ”、“ 法 律 ”、 
“认可 ”等 需求 ， 所 以 我 们 的 方案 中 ， 机 器 会 综合 考虑 “道德 ”、“ 法 律 ”、“ 认 
可 ”等 需求 ， 所 以 我 们 的 方案 ， 是 一 条 解决 人 工 智能 安全 性 的 可 行道 路 。 
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